簡單測試使用 WhisperDesktop 將語音轉成文字

TLDR

WhisperDesktop 是一款無需 Python 環境即可在 Windows 上運行 OpenAI Whisper 的離線工具。
建議優先使用 ggml-medium.bin 模型，該模型在準確度與處理速度之間取得了最佳平衡。
獨立顯卡使用者建議選用 ggml-medium.bin；內顯使用者建議日常使用 ggml-small.bin，重要內容則選用 ggml-medium.bin。
轉換效能與模型大小及硬體規格（VRAM）高度相關，ggml-large 模型在特定硬體上可能出現轉換失敗或輸出空白的問題。
開發者已長期未更新 WhisperDesktop，建議改用維護更活躍且速度更快的 Subtitle Edit 整合 Faster-Whisper 方案。

WARNING

WhisperDesktop 開發者已許久未更新。目前建議改用 Subtitle Edit 整合 Faster-Whisper，維護相對活躍且速度更快。請參考：使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字。

WhisperDesktop 提供了圖形化介面，讓使用者無需建置 Python 環境即可運行 Whisper 模型。

下載方式：前往 WhisperDesktop GitHub 的 Releases 頁面，下載 WhisperDesktop.zip。
模型下載：從 Huggingface Whisper 下載對應的 .bin 模型檔。
模型選擇建議：
- tiny / base：適合硬體資源極度受限的環境，但準確率較低。
- small：內顯環境的日常使用基準。
- medium：推薦模型，準確度與速度表現最為均衡。
- large：準確度最高，但對 VRAM 需求大（約 10GB），且在部分硬體上可能發生轉換失敗。

什麼情況下會遇到效能瓶頸？當處理長音訊檔案或使用過大的模型時，硬體規格（特別是 VRAM）將直接決定轉換速度與成功率。

以下測試基於 5 分 16 秒的 mp3 檔案：

獨立顯卡 (RTX 4070 Ti Super 16GB)：
- 使用 ggml-medium.bin：僅需 11 秒。
- 使用 ggml-large-v3.bin：耗時 22 分 01 秒，且實測可能產生空白檔案。
內顯 (i7-12700H)：
- 使用 ggml-tiny.bin：41 秒。
- 使用 ggml-small.bin：4 分 19 秒。
- 使用 ggml-medium.bin：13 分 5 秒。

針對不同硬體配置，建議採取以下策略：

擁有獨立顯示卡者：直接選用 ggml-medium.bin 模型，可兼顧效率與品質。
使用內顯或舊型顯示卡者：
- 日常轉錄：建議使用 ggml-small.bin，因 ggml-tiny.bin 的準確率通常不足以應付一般需求。
- 高精確度需求：可選用 ggml-medium.bin，並預留較長的處理時間。